{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Propagation de Labels\n", "\n", "Le machine learning supervisé, par exemple la classification comme on l'a vue dans le TP7, repose sur la disponibilité de données avec des labels.\n", "L'objectif de l'apprentissage était alors d'apprendre à prédire les labels pour des nouveaux points.\n", "\n", "Mais avoir des données avec des labels de bonne qualité demande un gros travail de labellisation, souvent très laborieux et pénible à réaliser. (Et souvent réalisé par des travailleur-euses extrêmement précaires, via des plateformes comme Amazon Mechanical Turk.)\n", "Comme les algorithmes de machine learning peuvent demander une quantité importante de données pour donner de bons résultats, il peut s'avérer utile de réussir à obtenir automatiquement les labels pour l'ensemble des données, à partir d'un nombre limité d'exemples.\n", "\n", "Ces labels peuvent être obtenus en exploitant une certaine notion de similarité entre les points, en supposant que deux points proches auront souvent le même label.\n", "Pour cela, on peut utiliser les mêmes techniques que celles que l'on a utilisées au TP précédent pour le machine learning non supervisé." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "import matplotlib.pyplot as plt\n", "from matplotlib.collections import LineCollection\n", "\n", "# datasets\n", "from sklearn.datasets import make_circles, make_moons, make_blobs\n", "\n", "# arbres de décision\n", "from sklearn.tree import DecisionTreeClassifier\n", "\n", "# graphe des plus proches voisins\n", "from sklearn.neighbors import kneighbors_graph" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Jeux de données\n", "\n", "Commençons par générer quelques jeux de données, qui vont nous permettre d'étudier le comportement de notre algorithme de propagation de labels dans plusieurs situations." ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "X_circle, y_circle = make_circles(noise=0.05, factor=0.2, shuffle=True, random_state=123)\n", "X_moons, y_moons = make_moons(noise=0.05, shuffle=True, random_state=123)\n", "X_noisy, y_noisy = make_blobs(cluster_std=1.5, random_state=123)\n", "\n", "y_circle, y_moons, y_noisy = y_circle.astype(\"float32\"), y_moons.astype(\"float32\"), y_noisy.astype(\"float32\")\n", "\n", "fig, ax = plt.subplots(1, 3, figsize=(20,5))\n", "\n", "ax[0].scatter(X_circle[:,0], X_circle[:,1], c=y_circle, cmap=\"Dark2\")\n", "ax[1].scatter(X_moons[:,0], X_moons[:,1], c=y_moons, cmap=\"Dark2\")\n", "ax[2].scatter(X_noisy[:,0], X_noisy[:,1], c=y_noisy, cmap=\"Dark2\")" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "def afficher_frontiere(clf, X, y, trained_on=None, ax=None):\n", " \"\"\"\n", " Affiche les frontières de décision du classifieur `clf`.\n", " \n", " L'argument `trained_on`, s'il est donné, doit être sous la forme d'une\n", " liste d'entiers, correspondant aux indices des éléments du dataset qui\n", " ont été utilisés pour entraîner le modèle, pour les afficher en couleur\n", " dans le plot final.\n", " \n", " L'argument `ax` permet d'afficher le résultat sur des axes, sinon une\n", " nouvelle figure est générée.\n", " \"\"\"\n", " h=0.01\n", "\n", " if ax is None:\n", " _, ax = plt.subplots()\n", " \n", " if trained_on is None:\n", " ax.scatter(X[:,0], X[:,1], c=y, cmap=\"Dark2\")\n", " else:\n", " ax.scatter(X[:, 0], X[:, 1], c=\"lightgrey\")\n", " ax.scatter(X[trained_on, 0], X[trained_on, 1], c=y[trained_on], cmap=\"Dark2\")\n", " pb=clf.predict(X)\n", " \n", "\n", " # grille\n", " x_min, x_max = X[:, 0].min() - 0.2, X[:, 0].max() + 0.2\n", " y_min, y_max = X[:, 1].min() - 0.2, X[:, 1].max() + 0.2\n", " xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))\n", "\n", " # labels prédits pour chacun des points de la grille\n", " Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])\n", "\n", " # affichage du résultat\n", " Z = Z.reshape(xx.shape)\n", " ax.imshow(Z, interpolation=\"nearest\",\n", " extent=(xx.min(), xx.max(), yy.min(), yy.max()),\n", " cmap=\"Dark2\", aspect=\"auto\", origin=\"lower\", alpha=0.6)\n", " \n", " ax.axis(\"off\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 1.** Entrainez des `DecisionTreeClassifier` sur chacun de ces trois jeux de données, et affichez les frontières de décision des modèles appris avec la fonction `afficher_frontiere` donnée ci-dessus." ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAABIkAAAEzCAYAAAC121PsAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8vihELAAAACXBIWXMAAAsTAAALEwEAmpwYAAAUkUlEQVR4nO3dX4ild3kH8O/TXQP+qxGzit1NcFtW416YEscYSm1jpTWbm0XwIlEMDcISasTLhF7ohTf1oiBidFnCErxxL2rQtURDoWgKNm0mEJOsITJdaTJdIRsVCwoNmzy9ODNlnM6eeXf3nJlzTj4fGNj3fX+ZeebHzPuVr+85U90dAAAAAF7bfm+3BwAAAABg9ymJAAAAAFASAQAAAKAkAgAAACBKIgAAAACiJAIAAAAgA0qiqjpZVS9W1TMXuV5V9ZWqWqmqp6rqxsmPCcCskhMAjCMnAObHkCeJHkxy65jrR5IcWvs4luTrVz4WAHPkwcgJAC7uwcgJgLmwbUnU3Y8m+eWYJUeTfKNHHktydVW9c1IDAjDb5AQA48gJgPkxifck2p/khQ3Hq2vnACCREwCMJycAZsTeCXyO2uJcb7mw6lhGj5DmjW984/uvv/76CXx5gMXyxBNPvNTd+3Z7jgmSEwATJCfkBMA4V5ITkyiJVpNcu+H4QJJzWy3s7hNJTiTJ0tJSLy8vT+DLAyyWqvrP3Z5hwuQEwATJCTkBMM6V5MQkXm52Osmda3+V4OYkv+7un0/g8wKwGOQEAOPICYAZse2TRFX1zSS3JLmmqlaTfCHJ65Kku48neTjJbUlWkvw2yV3TGhaA2SMnABhHTgDMj21Lou6+Y5vrneQzE5sIgLkiJwAYR04AzI9JvNwMAAAAgDmnJAIAAABASQQAAACAkggAAACAKIkAAAAAiJIIAAAAgCiJAAAAAIiSCAAAAIAoiQAAAACIkggAAACAKIkAAAAAiJIIAAAAgCiJAAAAAIiSCAAAAIAoiQAAAACIkggAAACAKIkAAAAAiJIIAAAAgCiJAAAAAIiSCAAAAIAoiQAAAACIkggAAACAKIkAAAAAiJIIAAAAgCiJAAAAAIiSCAAAAIAoiQAAAACIkggAAACAKIkAAAAAiJIIAAAAgCiJAAAAAIiSCAAAAIAoiQAAAACIkggAAACAKIkAAAAAiJIIAAAAgCiJAAAAAIiSCAAAAIAoiQAAAACIkggAAACAKIkAAAAAiJIIAAAAgCiJAAAAAIiSCAAAAIAoiQAAAACIkggAAACADCyJqurWqnquqlaq6r4trr+lqr5bVT+uqjNVddfkRwVgVskJAMaREwDzYduSqKr2JLk/yZEkh5PcUVWHNy37TJKfdPcNSW5J8vdVddWEZwVgBskJAMaREwDzY8iTRDclWenus939cpJTSY5uWtNJ3lxVleRNSX6Z5MJEJwVgVskJAMaREwBzYkhJtD/JCxuOV9fObfTVJO9Nci7J00k+192vbv5EVXWsqparavn8+fOXOTIAM0ZOADCOnACYE0NKotriXG86/miSJ5P8QZI/TvLVqvr9//cfdZ/o7qXuXtq3b98ljgrAjJITAIwjJwDmxJCSaDXJtRuOD2TU8G90V5KHemQlyc+SXD+ZEQGYcXICgHHkBMCcGFISPZ7kUFUdXHvzuNuTnN605vkkH0mSqnpHkvckOTvJQQGYWXICgHHkBMCc2Lvdgu6+UFX3JHkkyZ4kJ7v7TFXdvXb9eJIvJnmwqp7O6HHSe7v7pSnODcCMkBMAjCMnAObHtiVRknT3w0ke3nTu+IZ/n0vyV5MdDYB5IScAGEdOAMyHIS83AwAAAGDBKYkAAAAAUBIBAAAAoCQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAMrAkqqpbq+q5qlqpqvsusuaWqnqyqs5U1Q8nOyYAs0xOADCOnACYD3u3W1BVe5Lcn+Qvk6wmebyqTnf3TzasuTrJ15Lc2t3PV9XbpzQvADNGTgAwjpwAmB9DniS6KclKd5/t7peTnEpydNOaTyR5qLufT5LufnGyYwIww+QEAOPICYA5MaQk2p/khQ3Hq2vnNnp3krdW1Q+q6omqunNSAwIw8+QEAOPICYA5se3LzZLUFud6i8/z/iQfSfL6JP9aVY91909/5xNVHUtyLEmuu+66S58WgFkkJwAYR04AzIkhTxKtJrl2w/GBJOe2WPP97v5Nd7+U5NEkN2z+RN19oruXuntp3759lzszALNFTgAwjpwAmBNDSqLHkxyqqoNVdVWS25Oc3rTmO0k+VFV7q+oNST6Y5NnJjgrAjJITAIwjJwDmxLYvN+vuC1V1T5JHkuxJcrK7z1TV3WvXj3f3s1X1/SRPJXk1yQPd/cw0BwdgNsgJAMaREwDzo7o3vxx4ZywtLfXy8vKufG2AWVZVT3T30m7PsdvkBMDW5MSInADY2pXkxJCXmwEAAACw4JREAAAAACiJAAAAAFASAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAABlYElXVrVX1XFWtVNV9Y9Z9oKpeqaqPT25EAGadnABgHDkBMB+2LYmqak+S+5McSXI4yR1Vdfgi676U5JFJDwnA7JITAIwjJwDmx5AniW5KstLdZ7v75SSnkhzdYt1nk3wryYsTnA+A2ScnABhHTgDMiSEl0f4kL2w4Xl0793+qan+SjyU5PrnRAJgTcgKAceQEwJwYUhLVFud60/GXk9zb3a+M/URVx6pquaqWz58/P3BEAGacnABgHDkBMCf2DlizmuTaDccHkpzbtGYpyamqSpJrktxWVRe6+9sbF3X3iSQnkmRpaWlzMAAwn+QEAOPICYA5MaQkejzJoao6mOS/ktye5BMbF3T3wfV/V9WDSf5x8w0dgIUlJwAYR04AzIltS6LuvlBV92T0Vwb2JDnZ3Weq6u616143DPAaJicAGEdOAMyPIU8SpbsfTvLwpnNb3sy7+6+vfCwA5omcAGAcOQEwH4a8cTUAAAAAC05JBAAAAICSCAAAAAAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAABREgEAAAAQJREAAAAAURIBAAAAECURAAAAAFESAQAAABAlEQAAAAAZWBJV1a1V9VxVrVTVfVtc/2RVPbX28aOqumHyowIwq+QEAOPICYD5sG1JVFV7ktyf5EiSw0nuqKrDm5b9LMmfd/f7knwxyYlJDwrAbJITAIwjJwDmx5AniW5KstLdZ7v75SSnkhzduKC7f9Tdv1o7fCzJgcmOCcAMkxMAjCMnAObEkJJof5IXNhyvrp27mE8n+d5WF6rqWFUtV9Xy+fPnh08JwCyTEwCMIycA5sSQkqi2ONdbLqz6cEY39Xu3ut7dJ7p7qbuX9u3bN3xKAGaZnABgHDkBMCf2DlizmuTaDccHkpzbvKiq3pfkgSRHuvsXkxkPgDkgJwAYR04AzIkhTxI9nuRQVR2sqquS3J7k9MYFVXVdkoeSfKq7fzr5MQGYYXICgHHkBMCc2PZJou6+UFX3JHkkyZ4kJ7v7TFXdvXb9eJLPJ3lbkq9VVZJc6O6l6Y0NwKyQEwCMIycA5kd1b/ly4KlbWlrq5eXlXfnaALOsqp7wP4zlBMDFyIkROQGwtSvJiSEvNwMAAABgwSmJAAAAAFASAQAAAKAkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAAKIkAgAAACBKIgAAAACiJAIAAAAgSiIAAAAAoiQCAAAAIEoiAAAAADKwJKqqW6vquapaqar7trheVfWVtetPVdWNkx8VgFklJwAYR04AzIdtS6Kq2pPk/iRHkhxOckdVHd607EiSQ2sfx5J8fcJzAjCj5AQA48gJgPkx5Emim5KsdPfZ7n45yakkRzetOZrkGz3yWJKrq+qdE54VgNkkJwAYR04AzIkhJdH+JC9sOF5dO3epawBYTHICgHHkBMCc2DtgTW1xri9jTarqWEaPjybJ/1TVMwO+/qK7JslLuz3ELrMHI/ZhxD4k79ntAS6RnJguvxP2YJ19GLEPckJO/C6/E/ZgnX0YsQ9XkBNDSqLVJNduOD6Q5NxlrEl3n0hyIkmqarm7ly5p2gVkH+zBOvswYh9Ge7DbM1wiOTFF9sEerLMPI/ZBTkRO/A77YA/W2YcR+3BlOTHk5WaPJzlUVQer6qoktyc5vWnN6SR3rv1VgpuT/Lq7f365QwEwV+QEAOPICYA5se2TRN19oaruSfJIkj1JTnb3maq6e+368SQPJ7ktyUqS3ya5a3ojAzBL5AQA48gJgPkx5OVm6e6HM7pxbzx3fMO/O8lnLvFrn7jE9YvKPtiDdfZhxD7M4R7IiamyD/ZgnX0YsQ9zuAdyYqrsgz1YZx9G7MMV7EGN7scAAAAAvJYNeU8iAAAAABbc1Euiqrq1qp6rqpWqum+L61VVX1m7/lRV3TjtmXbagD345Nr3/lRV/aiqbtiNOadtu33YsO4DVfVKVX18J+fbKUP2oapuqaonq+pMVf1wp2ectgG/E2+pqu9W1Y/X9mAh35egqk5W1YsX+/O9r4X7YyInEjmxTk6MyAk5kciIjeSEnFgnJ0bkhJxIppgT3T21j4zemO4/kvxhkquS/DjJ4U1rbkvyvSSV5OYk/zbNmXb6Y+Ae/EmSt679+8ii7cHQfdiw7p8zes36x3d77l36ebg6yU+SXLd2/PbdnnsX9uBvk3xp7d/7kvwyyVW7PfsU9uLPktyY5JmLXF/o++Ml/Dws9D7IieH7sGGdnJATC58TMuKSfh4Wei/kxPB92LBOTsgJOXGZ98ZpP0l0U5KV7j7b3S8nOZXk6KY1R5N8o0ceS3J1Vb1zynPtpG33oLt/1N2/Wjt8LMmBHZ5xJwz5WUiSzyb5VpIXd3K4HTRkHz6R5KHufj5JunvR9mLIHnSSN1dVJXlTRjf1Czs75vR196MZfW8Xs+j3x0ROJHJinZwYkRNyIomM2EBOyIl1cmJETsiJJNPLiWmXRPuTvLDheHXt3KWumWeX+v19OqO2b9Fsuw9VtT/Jx5Icz+Ia8vPw7iRvraofVNUTVXXnjk23M4bswVeTvDfJuSRPJ/lcd7+6M+PNlEW/PyZyIpET6+TEiJyQE0Mt+r1xnZyQE+vkxIickBNDXda9ce/UxhmpLc5t/nNqQ9bMs8HfX1V9OKOb+p9OdaLdMWQfvpzk3u5+ZVT4LqQh+7A3yfuTfCTJ65P8a1U91t0/nfZwO2TIHnw0yZNJ/iLJHyX5p6r6l+7+7ynPNmsW/f6YyIlETqyTEyNyQk4Mtej3xnVyQk6skxMjckJODHVZ98Zpl0SrSa7dcHwgoybvUtfMs0HfX1W9L8kDSY509y92aLadNGQflpKcWruhX5Pktqq60N3f3pEJd8bQ34mXuvs3SX5TVY8muSHJotzUh+zBXUn+rkcvpl2pqp8luT7Jv+/MiDNj0e+PiZxI5MQ6OTEiJ+TEUIt+b1wnJ+TEOjkxIifkxFCXdW+c9svNHk9yqKoOVtVVSW5PcnrTmtNJ7lx75+2bk/y6u38+5bl20rZ7UFXXJXkoyacWqN3dbNt96O6D3f2u7n5Xkn9I8jcLdkNPhv1OfCfJh6pqb1W9IckHkzy7w3NO05A9eD6j/+cjVfWOJO9JcnZHp5wNi35/TOREIifWyYkROSEnhlr0e+M6OSEn1smJETkhJ4a6rHvjVJ8k6u4LVXVPkkcyegfyk919pqruXrt+PKN3nb8tyUqS32bU+C2MgXvw+SRvS/K1tdb7Qncv7dbM0zBwHxbekH3o7mer6vtJnkryapIHunvLP2s4jwb+LHwxyYNV9XRGj0ne290v7drQU1JV30xyS5Jrqmo1yReSvC55bdwfEzmRyIl1cmJETsiJdTJiRE7IiXVyYkROyIl108qJGj19BQAAAMBr2bRfbgYAAADAHFASAQAAAKAkAgAAAEBJBAAAAECURAAAAABESQQAAABAlEQAAAAAREkEAAAAQJL/BVd1mIVBP6udAAAAAElFTkSuQmCC\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "fig, ax = plt.subplots(1, 3, figsize=(20,5))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Graphe des k plus proches voisins\n", "\n", "Les deux fonctions suivantes permettent de générer le graphe des k plus proches voisins d'un jeu de donnée, et d'afficher ce graphe." ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "def graphe_voisins(X, nb_voisins=10):\n", " return kneighbors_graph(X, nb_voisins, include_self=True).todense()\n", " \n", "def afficher_graphe_voisins(X, graphe, y=None, ax=None):\n", " segs = []\n", " for i, x in enumerate(X):\n", " for j, z in enumerate(X):\n", " if graphe[i,j] > 0:\n", " segs.append((x, z))\n", "\n", " line_segments = LineCollection(segs, linewidths=2, linestyle='solid', color=\"pink\", zorder = -1)\n", "\n", " if ax is None:\n", " _, ax = plt.subplots()\n", " \n", " ax.set_axis_off()\n", " ax.add_collection(line_segments)\n", " \n", " if y is None:\n", " ax.scatter(X[:,0], X[:, 1], color=\"grey\")\n", " else:\n", " ax.scatter(X[:,0], X[:, 1], color=\"#AAAAAA\")\n", " ax.scatter(X[:,0], X[:, 1], c=y, cmap=\"Dark2\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Par exemple, sur le jeu de données `X_moons`, on obtient :" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "mat = graphe_voisins(X_moons, nb_voisins=10)\n", "afficher_graphe_voisins(X_moons, mat)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 2.** Affichez le graphe des plus proches voisins sur le dataset `X_moons`. Faites varier le nombre de voisins dans le graphe (argument `nb_voisins` de `graphe_voisins`).\n", "\n", "Que se passe-t-il quand le nombre de voisins est trop petit (par exemple quand il vaut 1 ou 2) ? Et quand il est trop grand (plus de 30 par exemple) ?" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "*Réponse :*" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Propagation de labels\n", "\n", "Maintenant que nous avons une façon de mesurer la proximité entre des points, on peut essayer de propager les labels dans le graphe.\n", "\n", "On procède ainsi :\n", "* au début, on ne connaît les labels que de quelques points ;\n", "* ensuite, on boucle :\n", " * pour chacun des points, on regarde tous ses voisins dans le graphe, et on distingue deux cas :\n", " * si aucun de ses voisins n'a de label, auquel cas on ne donne pas de label au point ;\n", " * sinon, on prend le label qui apparaît le plus dans ses voisins.\n", " \n", "C'est donc un algorithme itératif, qui attribue itérativement des nouveaux labels aux points.\n", "On l'appelle **propagation de labels**, car les labels se propagent à leurs voisins, jusqu'à ce qu'une situation stable soit atteinte." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Cet algorithme est implémenté dans la fonction suivante :" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "def propager_labels(X, y, graphe, afficher=False):\n", " adj = [np.where(graphe[i,:] == 1)[1] for i in range(graphe.shape[0])]\n", " labels = y.copy()\n", " old_labels = -labels\n", " \n", " while not ((labels == old_labels) | (np.isnan(labels) & np.isnan(old_labels))).all():\n", " \n", " if afficher:\n", " afficher_graphe_voisins(X, graphe, y=labels)\n", " \n", " old_labels = labels.copy()\n", " colors = labels[adj]\n", " colors_nonan = [np.unique(c[~(np.isnan(c))], return_counts=True) for c in colors]\n", " labels = [c[0][np.argmax(c[1])] if len(c[0]) > 0 else labels[i] for i,c in enumerate(colors_nonan)]\n", " labels = np.array(labels)\n", " \n", " afficher_graphe_voisins(X, graphe, y=labels)\n", " \n", " return labels" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Pour représenter les valeurs de `y` pour lesquelles on ne connaît pas le label, on utilise `np.nan`, il suffit donc de mettre la valeur `np.nan` à la place de tous les labels qu'on ne connaît pas.\n", "\n", "Ainsi, on peut par exemple garder seulement les labels des deux premiers éléments de `X_moons` (qui, par chance, ont deux labels différents).\n", "Regardons ce qui se passe :" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "scrolled": false }, "outputs": [], "source": [ "y2 = y_moons.copy()\n", "y2[2:] = np.nan\n", "propager_labels(X_moons, y2, graphe_voisins(X_moons), afficher=True);" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "On retrouve bien les labels que l'on voudrait trouver.\n", "\n", "**Question 3.** Lancez la fonction en utilisant les graphes de la question 2, avec soit très peu soit beaucoup de voisins, et sur les mêmes labels que dans la cellule de code précédente. (C'est-à-dire la variable `y2` où seuls les deux premiers labels sont gradés.) Que constatez-vous dans chacun des cas ?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "scrolled": false }, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "*Réponse :*" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 4.a.** Lancez l'algorithme de la même façon sur les jeux de données `X_noisy` et `X_circle`, en gardant à chaque fois uniquement les $5$ premiers labels des datasets.\n", "Pour ces deux datasets, cherchez le nombre de voisins dans le graphe des plus proches voisins qui fonctionne bien." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "scrolled": true }, "outputs": [], "source": [ "# garder seulement les 5 premiers labels pour le dataset X_circle, y_circle\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "# garder seulement les 5 premiers labels pour le dataset X_noisy, y_noisy\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 4.b.** Que dire des labels obtenus par notre algorithme sur les donnes `X_noisy` ? Que dire des labels obtenus dans une situation où les mesures des points de X sont très imprécises ?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "*Réponse :*" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Entraînement d'arbres de décision\n", "\n", "Le but de la propagation de labels est de pouvoir entraîner des modèles plus pertinents, malgré le manque de données avec des labels.\n", "\n", "Essayons donc de voir ce que l'on a gagné.\n", "Pour cela, on peut reprendre le code de la question 1, pour entraîner des arbres de décision en n'utilisant cette fois plus que les 5 premiers points de chacun de nos datasets.\n", "\n", "On obtient les classifieurs suivants, les points dont les labels ont été utilisés sont affichés en couleur, et les autres en gris clair." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "clf = DecisionTreeClassifier()\n", "fig, ax = plt.subplots(1, 3, figsize=(20,5))\n", "\n", "clf.fit(X_circle[:5,:], y_circle[:5])\n", "afficher_frontiere(clf, X_circle, y_circle, trained_on=np.arange(5), ax=ax[0])\n", "\n", "clf.fit(X_moons[:5,:], y_moons[:5])\n", "afficher_frontiere(clf, X_moons, y_moons, trained_on=np.arange(5), ax=ax[1])\n", "\n", "clf.fit(X_noisy[:5,:], y_noisy[:5])\n", "afficher_frontiere(clf, X_noisy, y_noisy, trained_on=np.arange(5), ax=ax[2])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 5.** Reprenez le code de la question 4.a., en utilisant `propager_labels` pour calculer les labels obtenus par propagation. Entraînez à nouveau des arbres de décision et commentez les résultats obtenus." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.5" } }, "nbformat": 4, "nbformat_minor": 4 }